強健性語音辨識中分頻段調變頻譜補償之研究 (A Study of Sub-band Modulation Spectrum Compensation for Robust Speech Recognition) [In Chinese]

نویسندگان

  • Sheng-Yuan Huang
  • Wen-Hsiang Tu
  • Jeih-Weih Hung
چکیده

雖然語音科技進步迅速,但自動語音辨識仍是一門值得繼續研究開發的課題。因為 目前多數的語音辨識系統應用於不受干擾的安靜環境,雖然能得到相當滿意的辨識效 果,但若將其應用於實際的環境中,語音訊號往往會因為環境雜訊的影響,導致辨識效 能有明顯地衰減,發展多年的強健性技術即是針對此項缺點作改進。 在諸多強健性技術中,有一類方法為對語音特徵作統計上的正規化,傳統上, 這些方法都是對全頻段的語音特徵時間序列做正規化處理,然而,在分析此類方法的效 能上,通常是以其調變頻譜的正規化程度作為效能的依據,因此,如果直接在語音特徵 之調變頻譜上作正規化,應亦可達到不錯的效果。另外,由於不同頻率的調變頻率成 份具有不相等的重要性,但是傳統之特徵時間序列正規化法相對忽略了此性質,基於這 些觀察,在本論文中,我們提出了一系列的分頻段調變頻譜統計正規化法,此類方法可 以分別正規化不同頻段的統計特性,進而提升語音特徵在雜訊環境下的強健性能;在國 際通用的 Aurora-2 連續數字資料庫之語音辨識上,我們所提出的新方法相對於基 礎實驗的辨識率而言,可以達到高達 65%的相對錯誤降低率,而這些新的調變頻 譜正規化法相對於時間序列正規化法而言,於相對錯誤降低率上也有 7%至 32% 的進步空間,此足以驗證這些新方法能夠更有效地提昇語音辨識系統在雜訊環境 下的辨識效能。 關鍵詞:語音辨識、調變頻譜、統計正規化、強健性語音特徵參數 Abstract In this paper, we propose a novel scheme in performing feature statistics normalization techniques for robust speech recognition. In the proposed approach, the processed temporal-domain feature sequence is first converted into the modulation spectral domain. The magnitude part of the modulation spectrum is decomposed into non-uniform sub-band

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

進階式調變頻譜補償法於強健性語音辨識之研究 (Advanced Modulation Spectrum Compensation Techniques for Robust Speech Recognition) [In Chinese]

在各種環境強健性技術中,有一類技術為對語音特徵的調變頻譜作統計上的正規化, 而 在先前這一類技術的研究裡,若對分頻段的頻譜做正規化處理,相對於全頻帶正規化的 處理法有較好的強健性效能,但其中由於不等切的切割方式,將調變頻譜中低頻部份分 的比較細,導致低頻範圍的子頻段,會有頻譜點數不足的問題,影響到我們計算其頻譜 特徵統計值的精確度,因此這些方法應有改進的空間。基於此觀察,本論文提出一系列 重疊式分頻段調變頻譜統計正規化法,此類方法可以有效提升子頻段中用以計算統計值 的頻譜點數,提升統計值的精確度,進而改善分頻段統計正規化法的效能,可以使所得 特徵在環境強健性上的效能更為優越。 本論文採用國際通用的 AURORA-2 連續數字語料庫作一系列的語音辨識實驗,由實驗 結果可明確驗證,我們提出的重疊式分頻段方法比起傳統非重疊式分頻段的方法更能有 效地提升各種雜訊環境下的辨識精確率。此外,我們...

متن کامل

最小變異數調變頻譜濾波器於強健性語音辨識之研究 (A Study of Minimum Variance Modulation Filter for Robust Speech Recognition) [In Chinese]

本論文所探討的是語音特徵強健性技術,藉此改善雜訊環境下語音辨識的效能。我們利 用原始最小變異數調變濾波器法設計的環境失真目標函數,應用至求取濾波器之最佳頻 率響應上,進而發展出兩種特徵時間序列濾波器求取演算法,分別為基於最小變異數準 則之最小平方頻譜擬合法 (MV-LSSF)及基於最小變異數準則之強度頻譜內插法 (MV-MSI)。在這兩種方法中,利用我們所求得的濾波器之最佳頻率響應取代原始最小 平方頻譜擬合法(LSSF)與強度頻譜內插法(MSI)中所使用的濾波器,來得到欲逼近的目 標功率頻譜密度。從 Aurora-2 連續數字資料庫的實驗結果證實,這兩種基於最小變異 數準之調變頻譜正規化法,在各種雜訊環境下都優於傳統的兩種調變頻譜正規化法,而 得到更佳的辨識精確度。與基礎實驗結果相比較,MV-LSSF 與MV-MSI 所達到之相對 錯誤降低率分別為在 55.41%與 51.20%,顯...

متن کامل

雜訊環境下應用線性估測編碼於特徵時序列之強健性語音辨識 (Employing linear prediction coding in feature time sequences for robust speech recognition in noisy environments) [In Chinese]

近幾十年來,無數的學者先進對於此雜訊干擾問題提出了豐富眾多的演算法,略分成兩 大類別:強健性語音特徵參數表示法(robust speech feature representation)與語音模型調適 法(speech model adaptation),第一類別之方法主要目的在抽取不易受到外在環境干擾下 而失真的語音特徵參數,或從原始語音特徵中儘量削減雜訊造成的效應,比較知名的方 法有:倒頻譜平均值與變異數正規化法 (cepstral mean and variance normalization, CMVN)[1]、倒頻譜統計圖正規化法(cepstral histogram normalization, CHN)[2]、倒頻譜平 均值與變異數正規化結合自動回歸動態平均濾波器法(cepstral mean and variance normalization plus auto-r...

متن کامل

調變頻譜正規化法使用於強健語音辨識之研究 (Study of Modulation Spectrum Normalization Techniques for Robust Speech Recognition) [In Chinese]

The performance of an automatic speech recognition system is often degraded due to the embedded noise in the processed speech signal. A variety of techniques have been proposed to deal with this problem, and one category of these techniques aims to normalize the temporal statistics of the speech features, which is the main direction of our proposed new approaches here. In this thesis, we propos...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2009